home *** CD-ROM | disk | FTP | other *** search
/ Turnbull China Bikeride / Turnbull China Bikeride - Disc 2.iso / AVOGADRO / CHEMISTRY / MOLEDRAW / !MoleDraw / docs / SMILES < prev    next >
Text File  |  1994-11-03  |  7KB  |  204 lines

  1. SMILES notation 
  2. ===============
  3.  
  4.    This introduction to SMILES notation is based on a more detailed
  5. description in the following paper,
  6.  
  7. "SMILES, a chemical language and information system", D. Weininger, Journal
  8. of Chemical Information and Computer Sciences, 28 (1988) pp31-36.
  9.  
  10.    SMILES (Simple Molecular Input Line Entry System) notation allows the two
  11. dimensional graph of a molecule (and certain aspects of it's three
  12. dimensional structure) to be written as a concise, one dimensional, string
  13. of characters. This allows computers to store large numbers of chemical
  14. structures in a small space and also enables them to be processed extremely
  15. quickly. The beauty of SMILES, as compared to other encoding systems you
  16. could devise, is that humans can also quite easily look at a SMILES string
  17. and determine what molecule it represents and, conversely, easily construct
  18. a SMILES string that represents a given structure.
  19.  
  20.    A SMILES notation is a sequence of characters that ends with a white
  21. space. Hydrogens may be omitted or included. Aromatic structures can be
  22. specified directly or in their Kekulé form.
  23.  
  24.  
  25. Atoms
  26. =====
  27.  
  28.    Atoms are represented by their atomic symbols. Atoms not from the
  29. "organic subset", that is B, C, N, O, P, S, F, Cl, Br, and I, are written
  30. enclosed in square brackets to separate them from the next. The presence of
  31. enough hydrogen atoms to fill up any unused bonds to an atom is implied
  32. unless the atom symbol is enclosed in square brackets and the number of
  33. attached hydrogens is explicitly stated. Charges on an atom, if present, may
  34. also be specified in the square brackets.
  35.  
  36.    For example
  37.  
  38.         SMILES                                  Molecule
  39.  
  40.           C                                     methane
  41.           N                                     ammonia
  42.           O                                     water
  43.          [Au]                                   elemental gold
  44.          [OH-]                                  hydroxyl anion
  45.          [OH3+]                                 hydronium cation
  46.          [Fe+2] or [Fe++]                       iron (II) cation
  47.          [NH4+]                                 ammonium cation
  48.  
  49.    Atoms in aromatic rings are specified by lower case letters, eg 'c' for
  50. an aromatic carbon atom.
  51.  
  52.  
  53. Bonds
  54. =====
  55.  
  56.    Single, double, triple, and aromatic bonds are represented by the symbols
  57. '-', '=', '#', and ':' respectively. Single and aromatic bond symbols may
  58. be, and usually are, omitted.
  59.  
  60.    Examples
  61.  
  62.         CC                                      ethane
  63.         C=C                                     ethene
  64.         CCO                                     ethanol
  65.         C#N                                     hydrogen cyanide
  66.         [H][H]                                  molecular hydrogen
  67.  
  68.  
  69. Branches
  70. ========
  71.  
  72.    Branches off the main chain are enclosed in parentheses.
  73.  
  74.    For example, (these and the following more complicated structures are
  75. drawn out in the file 'SMILESegs')
  76.  
  77.         CCN(CC)CC                               triethylamine
  78.         CC(=O)O                                 ethanoic acid
  79.  
  80.    Branches may be nested, for example
  81.  
  82.         C=CC(CCC)C(C(C)C)CCC
  83.  
  84.    is a perfectly valid SMILES string.
  85.  
  86.  
  87. Cyclic structures
  88. =================
  89.  
  90.    Rings are first converted to linear structures by breaking a single (or
  91. aromatic) bond. The SMILES for the resulting linear structure is then
  92. written as normal except that a ring closure number is added after each of
  93. the two atoms that had the bond between them broken.
  94.  
  95.    For example, (remembering lower case atom symbols imply aromaticity)
  96.  
  97.         C1CCCCC1                                cyclohexane
  98.         c1ccccc1                                benzene
  99.         C1C=CC=C1                               cyclopentadiene
  100.         Oc1ccccc1                               phenol
  101.         Brc1cc(Br)cc(Br)c1                      tribromo-benzene
  102.  
  103.    There may be more than one way of writing the structure as a SMILES. For
  104. example 1-methyl-3-bromo-cyclohexene may be written as
  105.  
  106.         CC1=CC(Br)CCC1
  107.  
  108.    or as
  109.  
  110.         CC1=CC(CCC1)Br
  111.  
  112.    An individual atom may be involved in closing more than one ring, in
  113. cubane for example, in this case all the ring closure numbers associated
  114. with the atom are written after it.
  115.  
  116.    So cubane may be written as
  117.  
  118.         C12C3C4C1C5C4C3C25
  119.  
  120.    Ring closure digits may be reused, however more than 9 may still be
  121. needed, in this case (ie for ring closure numbers of 10 or greater) the two
  122. digits are preceded by a '%' symbol.
  123.  
  124.    To illustrate both these things
  125.  
  126.         C%12CCCCC%12N=NC%12CCCCC%12
  127.  
  128.    represents two cyclohexane rings joined by a two nitrogen atom linker.
  129.  
  130.  
  131. Disconnected structures
  132. =======================
  133.  
  134.    Disconnected structures are written as individual SMILES separated by a
  135. full stop. For example sodium phenoxide can be written as
  136.  
  137.         [Na+].[O-]c1ccccc1
  138.  
  139.    or even
  140.  
  141.         c1cc([O-].[Na+])ccc1
  142.  
  143.    Note, however, that no association of ions is implied by the order in
  144. which disconnected structures appear in the SMILES.
  145.  
  146.  
  147. Isomerism
  148. =========
  149.  
  150.    The stereochemistry at chiral centres can be specified in SMILES. The
  151. chiral atom should be enclosed in square brackets with either one or two '@'
  152. symbols following it. One '@' implies that the branches that follow it in
  153. the SMILES string occur in an anticlockwise arrangement. Two '@' symbols
  154. mean the branches occur in a clockwise arrangement. This is undoubtedly
  155. totally unclear, so here is an example
  156.  
  157.         OC(=O)[C@@]([H])(N)Cc1ccc(O)cc1 L-Tyrosine
  158.  
  159.    here the [H], N and Cc1ccc(O)cc1 are arranged clockwise when viewed along
  160. the bond from the carboxyl group, OC(=O), to the chiral carbon atom. The
  161. other isomer is
  162.  
  163.         OC(=O)[C@]([H])(N)Cc1ccc(O)cc1  D-Tyrosine
  164.  
  165.    which has the three groups in an anticlockwise arrangement. These can be
  166. written more simply as
  167.  
  168.         OC(=O)[C@@H](N)Cc1ccc(O)cc1     L-Tyrosine
  169.  
  170.         OC(=O)[C@H](N)Cc1ccc(O)cc1      D-Tyrosine
  171.  
  172.    As an explanation for the use of the '@' symbol, and as an aid to
  173. remembering which is which; an '@' symbol is an 'a' with an anticlockwise
  174. circle around it.
  175.  
  176.    The cis/trans isomerism of double bonds can also be specified. The
  177. symbols '/' and '\' are used, they should precede and/or follow the atoms
  178. which are doubly bonded. For example
  179.  
  180.         Cl\C=C/Cl                       cis dichloro-ethene
  181.  
  182.         Cl\C=C\C1                       trans dichloro-ethene
  183.  
  184.    or for a double bond with two groups at each end
  185.  
  186.         Cl/C(Br)=C(/I)F
  187.  
  188.    This will have Cl and I trans to each other, with the Br at the same end
  189. as the Cl, and the F at the same end as the I.
  190.  
  191.  
  192.    Using the above rules almost all organic structures can be written in
  193. SMILES notation. To demonstrate this point the final complicated example,
  194. morphine
  195.  
  196.         O1C2C(O)C=CC3C2(C4)c5c1c(O)ccc5CC3N(C)C4
  197.  
  198.    can be written in a simple (it is when you get used to it!) and concise
  199. way.
  200.  
  201.  
  202. ---
  203. Simon Kilvington, 3/11/94
  204.